Self Forcing

https://gyazo.com/a53979744a61b47604a9a144885e5fc5

https://github.com/guandeh17/Self-Forcingguandeh17/Self-Forcing

https://arxiv.org/abs/2506.08009Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

これは、訓練中に推論プロセスをシミュレートし、KVキャッシングを用いてオートリグレッシブなロールアウトを実行することで、訓練時とテスト時の分布の不一致（Exposure Bias）という長年の問題を解決します。

モデルは高品質な480P動画を生成でき、初期レイテンシは約0.8秒で、その後はH100 GPUでは約16 FPS、RTX 4090では最適化により約10 FPSでフレームをストリーミング生成します。

従来のTeacher Forcing (TF)やDiffusion Forcing (DF) は、訓練時にグラウンドトゥルースのコンテキストに依存するため、推論時に自身の不完全な出力に条件付けして生成する際に分布の不一致（Exposure Bias）が生じ、時間の経過とともにエラーが蓄積し、動画品質が低下する問題がありました。

Self Forcingは、訓練中に過去に「自身が生成した」出力に条件付けして次のフレームを生成することで、この分布の不一致を明示的に解消します。

rolling cache

メモリが一杯になったら前方のブロックを消してメモリを空ける

ことにより無限長の動画生成ができる

ちょっと気になる👀morisoba65536.icon

モデル

https://huggingface.co/gdhe17/Self-Forcinggdhe17/Self-Forcing

https://huggingface.co/lym00/Wan2.1-T2V-1.3B-Self-Forcing-VACE-Addon-Experimentlym00/Wan2.1-T2V-1.3B-Self-Forcing-VACE-Addon-Experiment

有志による14b？

https://huggingface.co/lightx2v/Wan2.1-T2V-14B-StepDistill-CfgDistilllightx2v/Wan2.1-T2V-14B-StepDistill-CfgDistill

ptファイルなので一応注意

https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32.safetensors↑を一晩でkijai氏が(lora化)やってくれました…